阿里+北大|在梯度上做简单mask竟有如此的神奇效果

作者： | 来源：互联网 | 2023-08-29 15:33

每天给你送来NLP技术干货！paper:RaiseaChildinLargeLanguageModel:TowardsEffectiveandGeneralizabl

每天给你送来NLP技术干货&＃xff01;

paper: Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning
link: https://arxiv.org/pdf/2109.05687.pdf

去年让我印象最深刻的应该就是RDrop和这篇了&＃xff0c;趁着晚上有时间&＃xff0c;就来简单的说下这篇文章。

总体说一下

由于预训练模型的兴起&＃xff0c;最近的研究很多投身于如何在不遗忘预训练模型的参数的同时&＃xff0c;又能学到新的下游任务的finetune的方法。比如Henry Gouk提出的distance-based的方法&＃xff0c;将finetune学习到的参数控制在原始预训练参数一个球形范围内&＃xff1b;哈工大的Sanyuan Chen在EMNLP也提出了recall and learn的方法&＃xff0c;即边预训练边学习下游任务的方法&＃xff0c;并提出了RecAdam新的算法。

本文的方法采用了更为巧妙地方法&＃xff0c;通过mask掉部分梯度来防止更新过度从而导致原始的预训练信息的遗忘&＃xff0c;有点像在反向传播中使用前向传播的dropout的方法&＃xff0c;巧也&＃xff0c;妙也。并在实验中得出普遍比普通finetune方法还要高出1.5~8.6%的性能&＃xff0c;也比前人改进的finetune方法高出0.6~1.3个点。

很好在自己的实验上进行落地&＃xff0c;所以给大家推荐一下。

两种实验方法

如下图的算法所示&＃xff0c;不要被算法吓到&＃xff0c;很简单的&＃xff0c;总结起来就是通过某个方法找到需要没有被mask的梯度节点&＃xff08;这里叫做child&＃xff09;&＃xff0c;然后生成0-1mask矩阵&＃xff0c;和原来梯度乘就完成了更新与不更新的操作了。

那么如何选取哪些梯度不更新&＃xff0c;作者提出两种方法&＃xff1a;

task-free方法&＃xff0c;即随便mask梯度
task-driven方法&＃xff0c;即需要根据不同任务来决定mask哪些梯度

第一种为完全类似dropout一样的&＃xff0c;随机选取部分梯度节点进行mask&＃xff0c;不参与梯度更新&＃xff0c;说点学术化点就是服从伯努利分布&＃xff1a;

其中p_f为保留率&＃xff0c;当其为1时就是所有都保留&＃xff0c;都不mask&＃xff0c;就是普通的finetune了。其中&＃xff0c;当mask完后&＃xff0c;要对保留下来的梯度进行放大1/p_f倍的操作&＃xff08;类似dropout吧~&＃xff09;。

虽然听起来这个随机的方法很简单&＃xff0c;但值得注意的是&＃xff0c;这个证明其有效的过程需要好好学学和看看的&＃xff0c;这里说下最终结论&＃xff1a;

这种随机mask的方法&＃xff0c;有助于损失跳出局部最优&＃xff0c;跳出鞍点&＃xff0c;鼓励模型寻找更为平坦的局部最优面。

另一种方法为基于任务相关的mask方法&＃xff0c;这里采用的FIM方法&＃xff08;Fisher Information Matrix&＃xff09;&＃xff0c;即对每一个梯度平方的期望&＃xff1a;

求它在每一个样本的均值的梯度&＃xff1a;

这个梯度越大&＃xff0c;那么就表示这个梯度节点对该任务就格外重要&＃xff0c;相反越不重要的就越要mask了。其中mask的比率就是选择topk的方法一样。

实验

这两种方法和普通finetune方法在4种预训练模型中的性能比较&＃xff1a;

上面为主要试验&＃xff0c;但感觉为了论文的充分性吧&＃xff0c;作者又讨论了该方法的领域泛化性&＃xff1a;

除此之外&＃xff0c;还讨论了任务的泛化性&＃xff1a;

都还是挺不错的。

和以往的前沿方法对比&＃xff0c;更能体现出其有效性&＃xff1a;

最后还做了在目前比较火的低资源情况下的性能分析&＃xff1a;

这篇文章还是很不错的&＃xff0c;不光是方法&＃xff0c;更是学习如何将一个十分简单的idea写成故事&＃xff08;8页论文&＃xff09;的能力。

学习道路长且艰&＃xff0c;与君共勉。

下载一&＃xff1a;中文版&＃xff01;学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套&＃xff01; 后台回复【五件套】下载二&＃xff1a;南大模式识别PPT 后台回复【南大模式识别】

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

整理不易&＃xff0c;还望给个在看&＃xff01;

推荐阅读

pytorch
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42
text
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
text
谷歌工程师：TensorFlow已重获新生；网友：我还是用PyTorch

乾明发自凹非寺量子位报道|公众号QbitAI道友留步！TensorFlow已重获新生。在“PyTorch真香”的潮流中，有人站出来为TensorFlow说话了。这次来自谷歌的工程师 ... [详细]

蜡笔小新 2024-10-23 20:28:50
client
Google Colab 免费 GPU 使用指南（第一部分）

本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境，支持多种深度学习框架，并且提供免费的 GPU 计算资源。 ... [详细]

蜡笔小新 2024-11-14 13:42:03
text
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
text
非线性门控感知器算法的实现与应用分析

非线性门控感知器算法的实现与应用分析 ... [详细]

蜡笔小新 2024-11-11 12:19:17
text
深入解析监督学习的核心概念与应用

本文深入探讨了监督学习的基本原理及其广泛应用。监督学习作为机器学习的重要分支，通过利用带有标签的训练数据，能够有效构建预测模型。文章详细解析了监督学习的关键概念，如特征选择、模型评估和过拟合问题，并介绍了其在图像识别、自然语言处理等领域的实际应用。 ... [详细]

蜡笔小新 2024-11-09 21:07:22
eval
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
php
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
eval
表面缺陷检测数据集综述及GitHub开源项目推荐

本文综述了表面缺陷检测领域的数据集，并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理，为研究人员提供了全面的资源参考，有助于推动该领域的发展和技术进步。 ... [详细]

蜡笔小新 2024-10-29 08:22:46
match
第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

在第七天的深度学习课程中，我们将重点探讨DGL框架的高级应用，特别是在官方文档指导下进行数据集的下载与预处理。通过详细的步骤说明和实用技巧，帮助读者高效地构建和优化图神经网络的数据管道。此外，我们还将介绍如何利用DGL提供的模块化工具，实现数据的快速加载和预处理，以提升模型训练的效率和准确性。 ... [详细]

蜡笔小新 2024-10-27 21:10:17
match
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
eval
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
eval
不用蘑菇，不拾金币，我通过强化学习成功通关29关马里奥，创造全新纪录

《超级马里奥兄弟》由任天堂于1985年首次发布，是一款经典的横版过关游戏，至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆，也成为强化学习领域的热门研究对象。近日，通过先进的强化学习技术，研究人员成功让AI通关了29关，创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力，也为未来的人工智能应用提供了宝贵的经验。 ... [详细]

蜡笔小新 2024-10-28 10:11:47
eval
利用 PyTorch 实现 Python 中的高效矩阵运算

利用 PyTorch 实现 Python 中的高效矩阵运算 ... [详细]

蜡笔小新 2024-10-26 20:00:47

Tags | 热门标签

RankList | 热门文章